[レポート] Amazon DataZoneのデータリネージでデータの探索をより強力に #AWSreInvent #ANT207-NEW
データ事業本部 機械学習チームの鈴木です。
AWS re:Invent 2024の、セッション番号ANT207-NEWの『Empower your data journey with Amazon DataZone’s data lineage』を聴講したのでレポートです。
Amazon DataZoneではプレビューでOpenLineage互換のデータリネージ機能をサポートしていましたが、Redshift・Glueに対する自動のリネージ取得機能を含めGAになりました。
このセッションでは、デモを踏まえてその内容が紹介されました。
オンデマンド動画
概要・ポイント
Amazon DataZoneのデータリネージ機能がアプローチしようとする4つのテーマとデモを踏まえた実例を学ぶことができたのがこのセッションの大きなポイントだったと思います。
以下の4つのテーマが顧客から寄せられており、Amazon DataZoneのデータリネージ機能もそれを例にどのように課題を解決するのかユースケースを踏まえて紹介されていました。
冒頭のAWSブログにも記載がありましたが、Amazon DataZoneのデータリネージ機能は特にAWS GlueとAmazon Redshiftからリネージデータを自動的に収集する点がポイントの一つとなっています。セッションのデモでは、GlueとRedshiftを例にこの機能が紹介されていましたが、それ以外にもdbtによるデータ処理パイプラインからリネージを取得する例や、オンプレミスのウェアハウスから取得したリネージ情報をAmazon DataZoneにインポートする例も紹介されていました。
特に後者の例では、XMLのメタデータをAmazon BedrockでAmazon DataZoneがサポートする形式に変換しているのが印象的で勉強になりました。
デモでは、特にAmazon DataZoneのデータリネージがバージョンやカラムレベルのリネージをサポートしているのが印象に残りました。
これらの機能により、4つのテーマで挙げられている課題についても効果的にアプローチできることが伺えました。
データリネージはOpenLineageをサポートしていることが紹介されました。OpenLineageについて、コミッターから詳細に内容を伺える点もこのセッションのポイントだったと思います。
最後に
AWS re:Invent 2024の、セッション番号ANT207-NEWの『Empower your data journey with Amazon DataZone’s data lineage』のレポートでした。
AWSでのデータリネージは待望のアップデートでしたが、具体的なデモを踏まえてその内容を理解することができました。今回はちらっとデモに登場していましたが、Amazon DataZoneはデータ品質もサポートしているため、データリネージと合わせて強力にデータ活用をサポートします。
ご関心がある方はぜひ一度見ていただければと思います。